\documentclass{article}
\usepackage{a4wide}

%even wat commentaar toevoegen om te zien of de svn werkt

\title{CREA Intentieverklaring:\\ A holistic approach to knowledge based computer vision}
\date{Deadline: 13 oktober 2011}
\begin{document}
\maketitle

\section{Onderzoekskwaliteit aanvrager}
{\em \small Geef hieronder 3 belangrijke argumenten (kort) die wijzen op de onderzoekskwaliteiten van de aanvrager (bijzondere doorbraak in doctoraat, publicaties, ervaring met projectuitvoering, e.d.). }

Publicaties: Sinds 2003 publiceerde de aanvrager 11 artikels in internationale gereviewde journals (hoogste impact factor: 1,47), 16 volledige papers ($\sim$15 blz.) in de proceedings van internationale gereviewde conferenties, en won de Best Paper Award op ``Answer Set Programming: Advances in Theory and Implementation  (ASP), Bath, UK, 2005''.

Leiding van projecten: De aanvrager is momenteel copromotor van een laatstejaars IWT doctoraatsbursaal (Hanne Vlaeminck), een IWT TETRA project (``S.O.S.~OpenCL''), een FWO onderzoeksproject (``Theorie en Implementatie van Kennisbanksystemen voor FO(.)''), en een IOF Kennisplatform (``TermWise'').

Internationaal netwerk: De aanvrager was mede-organizator van de ``Second International Workshop on Logic and Search (2008)'' en de ``Second Answer Set Programming Competition (2009)''.  Hij zat in het Programma Comit\'e van de ``International Joint Conference on Artificial Intelligence (IJCAI) 2011'', de ``Twenty-Fourth AAAI Conference on Artificial Intelligence (2010)'', ``Nonmonotonic Reasoning at 30 (2010)'', en tradt op als Publicity Chair voor de ``International Conference on
Principles of Knowledge Representation and Reasoning (KR) 2010''. Daarnaast bracht hij ook een studieverblijf van 2 maand bij Prof.~Michael Gelfond aan de Texas Tech University (USA) en een studieverblijf van 1 maand bij Prof.~Thomas Eiter aan de TU.~Wien (Oostenrijk).



\section{Verbondenheid}
{\em \small
Het onderzoek moet verbonden zijn met het onderzoek van een reeds bestaande groep van onderzoekers (van minstens \'e\'en ZAP-lid) die een aantoonbare onderzoekslijn heeft uitgebouwd. Dit moet kunnen worden aangetoond door de aanwezigheid van een doctoraat, recente onderzoeksresultaten of publicaties op hetzelfde of een enigszins verwant gebied. Leg kort uit (max. 5 lijnen) waarom deze verbondenheid er is of waaruit ze bestaat en verwijs daarbij naar de opgegeven onderzoekseenhe(i)d(en). }

Dit onderzoek is nauw verbonden met het onderzoek van de groep DTAI van het Dept.~Computerwetenschappen, waarbinnen de hoofdaanvrager zijn doctoraat behaald heeft.  In het bijzonder is het voorgestelde onderzoek nauw verwant met het onderzoek van Prof.~Marc Denecker rond Kennisrepresentatie en met dat van Prof.~Luc De Raedt rond Probabilistisch Logisch Leren.
Daarnaast is dit onderzoek via de voorgestelde copromotor ook verbonden met het onderzoek van Prof.~Tuytelaars rond beeldverwerking binnnen de VISICS groep van het Dept.~ESAT.


\section{Copromotor}
{\em \small De aanvraag gaat principieel uit van \'e\'en promotor. Indien het wenselijk is om uitzonderlijk een copromotor toe te voegen, dan kan dit hier omstandig worden gemotiveerd. Het bureau van de Onderzoeksraad beslist bij de beoordeling van de intentiebrief ook over de ontvankelijkheid van de copromotor.
}

Dit project handelt over het gebruik van kennisrepresentatie voor beeldverwerking.  De hoofdaanvrager is een expert op het gebied van kennisrepresentatie, met een doctoraat behaald binnen de onderzoeksgroep DTAI van het Dept.~Computerwetenschappen.  Als copromotor wordt Toon Goedem\'e voorgesteld, een expert op het gebied van beeldverwerking, met een doctoraat behaald binnen de onderzoeksgroep VISICS van het Dept.~Elektrotechniek.  Sinds oktober 2010 is hij geassocieerd docent bij VISICS. Hij beschikt reeds over een ruime ervaring met industriegericht beeldverwerkingsonderzoek. Zo was hij onder meer betrokken bij volgende projecten: 
\begin{itemize}
\item Het IWT O{\&}O-project ICVS ism.~weefgetouwenfabrikant Picanol over real-time detectie van weeffouten
\item Het IWT TETRA-project FallCam over een camerasysteem voor valdetectie bij ouderen, ism.~KHK, UZ.~Leuven en diverse partners uit de gezondheidszorg
\item Het IWT TETRA-project Fast-ProMoCo over modelgebaseerde hardware-implementatietechnieken voor beeldverwerkingsalgoritmes
\item Het SIVOL project voor objectherkenning in landbouwtoepassingen, ism.~o.a.~het Proefstation voor de Groenteteelt in Sint-Katelijne-Waver en de firma Case New Holland.
\end{itemize}

Toon Goedem\'e begeleidt volgende doctoraatsstudenten:
\begin{itemize}
\item Anna C. Murillo, 2003-2008, Universidad de Zaragoza, promotor : C. Sagu\`es, \emph{Visual Localization for Robotics : metric, topological and higher abstraction levels}, lid van het leescomit\'e
\item Koen Buys, gestart in 2009, PMA, K.U.Leuven, promotor : H. Bruyninckx, \emph{Real-Time Markerless Human Motion Capture}, assessor
\item Glen De Bard, gestart in 2009, ESAT, K.U.Leuven, promotor : T. Tuytelaars, \emph{Camera system for Elderly Fall Detection}, copromotor
\item Kristof Van Beeck, gestart in 2009, ESAT, K.U.Leuven, promotor : T. Tuytelaars, \emph{The automatic blind spot camera: hard real-time recognition of moving objects from a moving camera}, copromotor
\item Floris De Smedt, gestart in 2010, ESAT, K.U.Leuven, promotor : T. Tuytelaars, \emph{Detection of abnormal behavior in camera surveillance}, copromotor
\item Jon Verbeke, gestart in 2011, PMA, K.U.Leuven, promotor : J. De Schutter, \emph{Development of an Unmanned Aerial Vehicle (UAV) for autonomous monitoring of crops in orchards and vineyards}, copromotor

\end{itemize}
Het samenbrengen van expertise uit deze twee verschillende onderzoeksdomeinen (kennisrepresentatie en beeldverwerking) is \'e\'en van de voornaamste bronnen van innovatie in het voorgestelde project.  Als zodanig lijkt de voorgestelde combinatie van promotor--copromotor het ideale kader te bieden voor het uitvoeren van dit project.  Op deze wijze kan immers  gezorgd worden voor zowel theoretische vernieuwing binnen het domein van Kennisrepresentatie, als voor praktische innovatie binnen Computervisie.


\section{State-of-the-art}
{\em\small Op een 1/2 pagina: de wetenschappelijke 'state of the art'.}

As compared to still image interpretation, the interpretation of action in video content is a computer vision domain which at the moment still in its infancy. 
%Traditional computer vision systems rely on specialized algorithms that detect one particular kind of object, event or activity.  
Although, with the amount of user-generated video content on the web growing dramatically (e.g. 65,000 new video clips uploaded on YouTube$^{TM}$ on a daily basis), the need for automatic
annotation or content-based retrieval of video data is pressing.
Over recent years, some progress has been made in the field with approaches that merely link traditional object recognition results through the subsequent frames of a video \cite{cinbis10}.  The current state-of-the-art in action recognition is dominated by applying Machine Learning (ML) methods, that make use of quantitative or probabilistic models (Bayesian networks \cite{vezzani09}, neural networks \cite{mikolajczyk10}, Hough voting\cite{yao10}, support vector machines \cite{willems09}, etc.) on spatio-temporal data \cite{wang09}.  A well-known drawback is that these methods cannot easily incorporate background knowledge about the domain.  As a result, they may need a prohibitively large number of manually annotated training examples in order to cope with complicated relations and interaction between objects. An alternative is provided by Knowledge Representation (KR) methods, which allow a user to explicitly input his own knowledge into the system, where it can then be used by generic reasoning algorithms.  Such approaches are typically good at expressing relational knowledge about interacting objects, but fail to handle noise and uncertainty. 

A natural step forward is to combine ML and KR, using the strengths of one to compensate for the weaknesses of the other.   A number of these approaches exist in computer vision, but they remain rather {\em ad hoc}, typically just feeding the output of some ML algorithm that detects low-level objects/events into a knowledge base that then derives some more high-level concepts~\cite{yu11}. 

A more systematic study  of the combination of ML and KR can be found in the emerging field of Probabilistic Logic Learning (PLL), which is situated at the interesection of the Uncertainty in AI community, the KR and Logic Programming community, and the ML community.  By combining the strengths of these three separate areas, PLL methods are able to handle both uncertain information and complex relational structures, and to exploit both sets of training examples and user-defined background knowledge.  Growing rapidly since the beginning of this century, PLL currently offers a variety of languages, algoritms and systems, that can leverage state-of-the-art implementation techniques to handle large applications, e.g., in bio-informatics. 

\section{Wetenschappelijke doelstellingen}
{\em \small
Op een 1/2 pagina: de wetenschappelijke doelstellingen (de beoogde stap voorwaarts moet hierbij 'tastbaar' en 'controleerbaar' zijn). 
Wijs hierbij op het vernieuwende aspect, maar ook op de aard van de vernieuwing (inhoudelijk of in de benadering), de beoogde wetenschappelijke doorbraken en de verhoopte nieuwe inzichten met een belangrijke wetenschappelijke impact.}

This project aims to provide a first step on the way to a more holistic use of KR in video action interpretation.  That is, we envisage a system in which the entire processing chain from camera input to desired output is driven by the same knowledge base, and in which high level knowledge (e.g., about the activities that people are engaged in and their expected time order) can be used to improve low level performance (e.g., detecting groups of pixels that form a person silhouette) as well as the other way around.  Moreover, where appropriate, the components of this knowledge base should be trainable by machine learning algorithms. The combination with KR background knowledge will have the advantage that much less training examples are needed, but also reduces the number of recognition errors, such that the recognition performance will be significantly higher as compared to classic approaches.  Such a system would consitute a major leap forward from the current state-of-the-art, which has only attempted to apply a knowledge based approach to small isolated subproblems of the general problem.  Any attempt to combine these isolated solutions into a single system is bound to be faced with significant challenges, both practically (incomplete implementations, infeasible inference tasks) and theoretically (missing pieces, incompatible assumptions, different terminology).

It is therefore important that such an overarching system should not be based on an {\em ad hoc} combination of algorithms, but should have solid theoretic and mathematical foundations.  These foundations can be found in the field of PLL, which shows how to combine quantitative and qualitative information, while taking advantage of the state-of-the-art in both KR and ML.  

The concrete goal of this project is, first and foremost, to define a coherent {\em semantic PLL framework} that allows us to describe all of the different components (knowledge bases and algorithms) that are needed for a single system, and to formally define how they will work together.  
This framework will provide a shared and mathematically well-defined terminology, that will allow different researchers to collaborate easily on the development of such an overarching system.  Moreover, it will also allow us to combine existing approaches and algorithms in a principled way, as well as providing a clear overview of what the current state-of-the-art is still missing in order to be able to build a complete system.
A final goal is to deliver a semi-automatic prototype, that adheres to the general framework that we will develop, but may still rely on the engineer to provide specific implementations of certain functionality for which no readily available general method already exists. This prototype will demonstrate the feasibility of the approach, while our analysis will provide a clear roadmap of how future research could proceed on the way to an industrially applicable system. 


\section{Onderzoeksmethode}
{\em \small Op 1 pagina: een beschrijving van de onderzoeksmethode. 
Als de vernieuwing in de methode zit, leg dan uit waarom ze nieuwe inzichten en generische toepassingen mogelijk maakt. Leg in elk geval uit waaruit de eventuele 'proof of principle' bestaat. Geef bovendien de nodige argumenten die de uitvoerbaarheid van het voorgestelde onderzoek aantonen, ongeacht de zekerheid over het resultaat. De voorgestelde financiering, de omkadering en de geplande termijn moeten voldoende zijn om het voorgestelde onderzoek op een degelijke wijze te kunnen uitvoeren (opnieuw ongeacht het resultaat).
}

This project will start by creating a catalogue of the different kinds of knowledge that are relevant to performing a video interpretation task.  This may include knowledge about, e.g., the  shape, structure and texture of objects; the relations between different classes of objects; the way in which the domain changes from one state to the next; the beliefs, desired and intentions of agents that are present in the domain; the sensors through which the domain is being perceived.  For each of these kinds of knowledge, we will investigate the representational requirements (i.e., is there a need for probabilities, for epistemic operators, for default reasoning, \ldots) and the different ways in which this knowledge may be used in different phases of the computation.  We will match these different uses of the knowledge to well-defined computational tasks (e.g., computing the most probable value of some hidden state, given the current observations and assumptions; performing a Bayesian update of the current beliefs when new observations arrive; estimating the accuracy of the current beliefs; etc.).  Finally, we will then examine the literature for languages and algorithms that can fill in the different roles that we have identified, and attempt to create a prototype that links these different components together in the appropriate way.

In performing this research, we will follow an application-driven approach, in which we study a series of increasingly complex case studies. Firstly, our initial effort will be to build a system that is capable of interpreting video footage of a board game being played.  This is a good starting point, because it allows a number of important simplifications: board game tokens are typically of distinctive shapes and colours, and therefore easy to recognize; footage of a board game can easily be split into different successive states of the game; the rules of the game are complete, deterministic and clearly described.  For this example, we therefore expect that a detailed theoretic analysis and working prototype should be reasonably easy to obtain.

Once we have performed our analysis an implemented a working prototype for this first application, we will move on to the more complicated example of interpretation of sports footage.  While sports still have (reasonably) complete and deterministic rules, and are also centered around easily visually recognizable objects such as a ball, the task here is made more difficult by the fact that human players and their actions are significantly more difficult to detect than board game markers, and the transitions between successive states of the game are not as clearly defined and easy to detect as in a board game.  While our theoretical framework should still be able to encompass this example, the implementation of a prototype will prove more challenging.  In particular, the complexity of this example may make application of standard algorithms infeasible.  Possible solutions might be to switch from exact to approximate forms of inference, or to depend on hand-optimized algorithms for certain specific tasks.  While it falls beyond the scope of this project to ensure that all such problems are solved, our study of this example should pinpoint the current computational bottlenecks and create a clearer picture of what currently is and is not possible using a knowledge based approach.

A third and final application is crowd monitoring, where footage of, e.g., public transportation is to inspected for abnormal behaviour.  This is again a more challenging application, since the quality of the images and lighting conditions are worse than for sporting events, and because the behaviour that passengers might be engaged in is significantly less well-defined than that of sports players. Within the limitations of this project, a full treatment of this application will not be possible.  Nevertheless, a preliminary study will shed some light on the limitations of the framework that has been developed for the previous two applications, and will indicate interesting directions for future research. An interesting application of such a crowd monitoring system is generating an alarm when abnormal actions such as vandalism, violence, and panic occur, which can be detected as actions that do not comply with the rules of normal behaviour.


\section{Duur}
{\em \small
De duurtijd van de projecten is 1 of 2 jaar. Zeer uitzonderlijk en enkel indien een periode van 2 jaar niet volstaat om het opzet te realiseren, kan men hieronder en met een speciale motivering een langere projectperiode bepleiten. In dit geval wordt er op het einde van het tweede jaar een vorderingsverslag ingediend. Indien de onderzoeksresultaten niet de gewenste richting uitgaan, kan het bureau van de Onderzoeksraad na het horen van de promotor uitzonderlijk beslissen om de financiering van het CREA vroegtijdig te stoppen. }

2 jaar

\section{Aan te vragen middelen}
{\em \small
De toe te kennen financiering bedraagt in principe 80 000 euro per jaar.
Beschrijf hieronder zeer bondig (max 10 lijnen) welk type van onderzoeker u wenst te financieren via het CREA-project (doctoraatsbursaal, postdoc, ATP, ...) en voor welke periode.  Beschrijf ook welke middelen u aan werking zou besteden en detailleer de geplande werkingskosten.}

E\'en doctoraatsbursaal gedurende 2 jaar. 

Personeelskost: 60 000 euro / jaar

Indirecte kost (overhead): 20\% van loonkost = 12 000 euro / jaar

Werkingskosten:

Deelname aan internationale congressen: 2 x 2 000 euro = 4 000 euro

PC/laptop: 1 000 euro

Hardware verwerving beeldmateriaal: 3 000 euro

Totaal: 80 000 euro per jaar.

\begin{thebibliography}{9}

\bibitem{vezzani09}
  Vezzani, R., Piccardi, M., Cucchiara, R.,
  \emph{An effcient bayesian framework for on-
line action recognition,} In proceedings of ICIP, 2009.

\bibitem{wang09}
  H. Wang, M. M. Ullah, A. Klser, I. Laptev and C. Schmid,
  \emph{Evaluation of local spatio-temporal features for action recognition}, In proceedings of BMVC'09, 2009.

\bibitem{yao10}
  Yao, A., Gall, J., Gool, L.V.,
  \emph{A hough transform-based voting framework for action recognition}, In proceedings of CVPR, 2010.

\bibitem{cinbis10}
N.I. Cinbis and S. Sclaroff, \emph{Object, scene and actions: combining multiple features for human
action recognition}, In European Conference on Computer Vision, pages I: 494–507, 2010.

\bibitem{mikolajczyk10}
K. Mikolajczyk and H. Uemura, \emph{Action recognition with
motion-appearance vocabulary forest}, CVPR, pages 1-8,
2008.

\bibitem{willems09}
G. Willems, J.H. Becker, T. Tuytelaars and L. Van Gool, \emph{Exemplar-based action recognition in video}, Proceedings BMVC 2009.

\bibitem{yu11}
Xiaodong Yu, Cornelia Fermüller, Ching L. Teo, Yezhou Yang, Yiannis Aloimonos, \emph{Active Scene Recognition with Vision and Language}, International Conference on Computer Vision, ICCV. 2011.

\end{thebibliography}


\end{document}
